Scroll to navigation

TCP(7) Руководство программиста Linux TCP(7)

ИМЯ

tcp - протокол TCP

ОБЗОР

#include <sys/socket.h>
#include <netinet/in.h>
#include <netinet/tcp.h>

tcp_socket = socket(AF_INET, SOCK_STREAM, 0);

ОПИСАНИЕ

Эта реализация протокола TCP, описанного в RFC 793, RFC 1122 и RFC 2001 с расширениями NewReno и SACK. Данный протокол предоставляет пользователю надёжное полнодуплексное соединение двух сокетов для потоковой передачи поверх ip(7) версий v4 и v6. TCP гарантирует доставку данных в правильном порядке и повторно передаёт потерявшиеся пакеты. Для выявления ошибок передачи протоколом генерируются и проверяются контрольные суммы пакетов. TCP не сохраняет границы записей.

Только что созданный сокет TCP не имеет локального или удалённого адреса и не является полностью определённым. Для создания исходящего соединения TCP с другим сокетом TCP используйте connect(2). Для приёма новых входящих соединений сперва подключите сокет к локальному адресу и порту с помощью bind(2), а затем вызовите listen(2) для перевода сокета в режим прослушивания. После этого через новый сокет можно принимать каждое входящее соединение с помощью accept(2). Сокет, для которого успешно отработали accept(2) или connect(2), является полностью определённым и может передавать данные. Данные не могут быть переданы через слушающий или ещё не соединённый сокет.

Linux поддерживает высокопроизводительные расширения TCP RFC 1323. Они включают в себя: защиту против оборотной последовательности номеров (PAWS), масштабирование окна и метки времени. Масштабирование окна позволяет использовать большие (> 64КБ) окна TCP для поддержки соединений с большой задержкой или высокой пропускной способностью. Для их использования необходимо увеличить размеры буферов приёма и передачи. Это можно сделать глобально через файлы /proc/sys/net/ipv4/tcp_wmem и /proc/sys/net/ipv4/tcp_rmem, или для отдельных сокетов, используя параметры сокетов SO_SNDBUF и SO_RCVBUF в вызове setsockopt(2).

Максимальный размер буферов сокета объявляется, используя механизмы SO_SNDBUF и SO_RCVBUF и ограничен значениями в файлах /proc/sys/net/core/rmem_max и /proc/sys/net/core/wmem_max. Заметим, что TCP в действительности бронирует в два раза больше места, чем размер буфера, запрошенный в вызове setsockopt(2), поэтому последующий вызов getsockopt(2) не возвратит тот же размер буфера, что был запрошен в вызове setsockopt(2). TCP использует дополнительное пространство в административных целях и для внутренних структур ядра, а значения в файлах в /proc отражают большие размеры, по сравнению с действительными окнами TCP. Для отдельных соединений размер буфера сокета должен быть установлен до вызова listen(2) или connect(2). Дополнительную информацию смотрите в socket(7).

TCP поддерживает срочные данные. Срочные данные используются для уведомления принимающей стороны о том, что частью потока данных является некоторое важное сообщение, которое должно быть обработано как можно скорее. Для отправки срочных данных укажите параметр MSG_OOB в вызове send(2). При поступлении срочных данных ядро посылает сигнал SIGURG процессу или группе процессов, который указан как «владелец» сокета с помощью ioctl-вызовов SIOCSPGRP или FIOSETOWN (или с помощью определённой в POSIX.1-2001 операции F_SETOWN для fcntl(2)). Если задан параметр сокета SO_OOBINLINE, то срочные данные будут помещены в обычный поток данных (программа может проверить его размещение с помощью ioctl-вызова SIOCATMARK, описанного далее), в противном случае они могут быть получены, только если для srecv(2) или recvmsg(2) установлен флаг MSG_OOB.

В Linux 2.4 представлено несколько изменений по улучшению пропускной способности и масштабирования, а также дополнительные возможности: поддержка «нулевого» копирования (zero-copy) в sendfile(2), явное уведомление о перегрузке, новое управление сокетами TIME_WAIT, параметры поддержки сокетов в рабочем состоянии и поддержка расширений Duplicate SACK.

Форматы адресов

Протокол TCP построен поверх протокола IP (смотрите ip(7)). Форматы адресов, определённые в ip(7), относятся и к TCP. TCP поддерживает только соединения типа точка-точка (point-to-point); широковещательная и многоадресная передача не поддерживаются.

Интерфейсы /proc

Системные настройки параметров TCP хранятся в каталоге /proc/sys/net/ipv4/. Также, большинство интерфейсов /proc для IP также применимы и к TCP (смотрите ip(7)). Переменные, описанные как Boolean, являются целочисленными, где ненулевое значение («истина, true») означает, что соответствующий параметр включён, а нулевое значение («ложь, false») означает, что параметр включён.

Управляет подсчётом выделенных байтов (Appropriate Byte Count — ABC), определён в RFC 3465. ABC — это более плавный способ увеличения окна перегрузки (cwnd) в ответ на частичные подтверждения. Возможные значения:
0
увеличивать cwnd при каждом подтверждении (ABC выключен)
1
увеличивать cwnd при каждом подтверждении всего сегмента
2
разрешить увеличение cwnd на два, если подтверждение касается двух сегментов, что компенсирует задержку подтверждений.
Включает сброс (resetting) соединений, если слушающий сервис слишком медленно работает и не может поддержать существующие или принять новые соединения. Это означает, что при возникновении переполнения из-за всплеска подключений (burst), соединение будет восстановлено. Включайте этот параметр только, если вы действительно уверены, что слушающая программа не может быть настроена более быстрый приём соединений. Включение этого параметра может нарушить работу клиентов вашего сервера.
Рассчитывает переполнение буфера по формуле bytes/2^tcp_adv_win_scale, если tcp_adv_win_scale больше 0, или bytes-bytes/2^(-tcp_adv_win_scale), если значение tcp_adv_win_scale меньше или равно 0.

Пространство буфера приёма сокета является общим для приложения и ядра. TCP обслуживает часть буфера как окно TCP, о размере этого окна приёма извещается другая сторона. Остаток пространства используется как «буфер приложения», используемый для изолирования сети от задержек планирования или приложения. Значение по умолчанию tcp_adv_win_scale — 2 — означает, что для буфера приложения используется четверть всего пространства.

Показывает/назначает алгоритм управления перегрузкой из списка доступных для непривилегированных процессов (смотрите описание параметра сокета TCP_CONGESTION). В списке содержатся несколько значений из перечисленных в tcp_available_congestion_control. Значением по умолчанию является «reno» плюс значение по умолчанию из tcp_congestion_control.
Показывает список зарегистрированных алгоритмов управления перегрузкой. Список представляет собой сокращённый набор из tcp_allowed_congestion_control. Дополнительные алгоритмы управления перегрузкой могут быть доступны в виде модулей, но они не загружены.
Эта переменная определяет, сколько байтов окна TCP зарезервировано для буферизации издержек (overhead).

Для буфера приложения будет зарезервировано максимум (window/2^tcp_app_win, mss) байт в окне. Значение 0 обозначает, что ничего не зарезервировано.

Начальное значение для search_low, которое будет использовано уровнем упаковки при обнаружении Path MTU (зондирование MTU). Если зондирование (probing) MTU включено, то в соединении для этого используется начальное значение MSS.
Включает алгоритм управления перегрузкой BIC TCP. Алгоритм BIC-TCP действует только на стороне отправляющего, при этом обеспечивается линейная справедливость RTT при больших окнах и предлагается масштабируемость и дружественность к TCP. Протокол объединяет две схемы, называемые аддитивное увеличение (additive increase) и увеличение дихотомическим поиском (binary search increase). Когда окно перегрузки велико, аддитивное увеличение с большим приращением обеспечивает линейную справедливость RTT, а также хорошую масштабируемость. При маленьких окнах перегрузки, увеличение дихотомическим поиском предоставляет дружественность к TCP.
Устанавливает порог окна (в пакетах) после которого запускается BIC TCP для регулировки окна перегрузки. Ниже этого порога BIC TCP действует как алгоритм по умолчанию — TCP Reno.
Заставляет BIC TCP реагировать на изменения окна перегрузки более быстро. Позволяет двум потокам сообща использовать одно соединение для более быстрой сходимости.
Включает алгоритм управления перегрузкой по умолчанию для новых соединений. Алгоритм «reno» доступен всегда, но в зависимости от настроек ядра могут быть и другие. Значение по умолчанию для этого файла задаётся в настройке ядра.
Нижний предел (в байтах) на количество читаемых из сокета данных, которое будет снято из механизма копирования DMA, если он есть в системе и ядро было настроено с параметром CONFIG_NET_DMA.
Включает поддержку RFC 2883 TCP Duplicate SACK.
Включает RFC 2884 Explicit Congestion Notification (явное уведомление о перегрузке). При включении может пропасть возможность установления соединений с некоторыми узлами из-за старых маршрутизаторов по пути следования, что выражается в обрыве (dropped) соединения.
Включает поддержку TCP Forward Acknowledgement (подтверждение передачи).
Устанавливает количество секунд, в течение которых необходимо ждать последний пакет FIN перед принудительным закрытием сокета. Строго говоря, это нарушение спецификации TCP, но оно необходимо для предотвращения атак отказа в обслуживании (DoS). Значение по умолчанию в ядрах 2.2 равно 180.
Включает F-RTO — расширенный алгоритм восстановления пауз при повторных передачах TCP (RTO). В частности, он полезен в беспроводных средах, где потеря пакетов обычно происходит из-за произвольного возникающих радиопомех, а не из-за перегрузки промежуточного маршрутизатора. Подробности смотрите в RFC 4138.

В этом файле могут быть следующие значения:

0
Выключить.
1
Включить базовую версию алгоритма F-RTO.
2
Включить расширенный SACK алгоритм F-RTO, если поток использует SACK. Когда используется SACK, также может использоваться и базовая версия, хотя при этом возникают случаи, где F-RTO сработает плохо при подсчёте пакетов в потоке TCP с включённым SACK.
До Linux 2.6.22 этот параметр имел тип Boolean, в котором поддерживаются только значения 0 и 1.
Если F-RTO обнаруживает, что пауза при повторной передаче TCP не типична (т.е, паузы можно было бы избежать, если в TCP была бы установлена более длительная пауза повторной передачи), то у TCP есть несколько вариантов, что сделать дальше. Возможные значения:
0
Уменьшение скорости (rate) вдвое; плавный и осторожный ответ, приводит к уменьшению окна перегрузки (cwnd) вдвое и предельной величине медленного старта (ssthresh) после одного RTT.
1
Очень осторожный ответ; не рекомендуется, так как хотя и допускается, но плохо взаимодействует с остальным Linux TCP; немедленно уменьшает cwnd и ssthresh вдвое.
2
Активный ответ; отменяет оценки управления перегрузкой, которые теперь не нужны (игнорируется возможность потери повторной передачи, которая бы требовала от TCP большей бережливости); значения cwnd и ssthresh восстанавливаются в значения до паузы.
Количество секунд между отправкой «поддерживающих» (keep-alive) проверочных пакетов.
Максимальное количество отправляемых «поддерживающих» (keep-alive) пакетов TCP до разрыва соединения, если не будет получено ответа от другой стороны.
Количество секунд между отсутствием передаваемых данных и отправкой через соединение «поддерживающих» пакетов. Эти пакеты будут отправляться, только если установлен параметра сокета SO_KEEPALIVE. Значение по умолчанию равно 7200 секунд (2 часа). Бездействующее соединение разрывается примерно через 11 минут (9 пакетов, с интервалом 75 секунд) при включённом режиме keep-alive.

Заметим, что механизмы слежения за соединением более низкого уровня и периоды ожидания приложений могут быть гораздо короче.

Если включён, то при работе стека TCP отдаётся предпочтение меньшей задержке, а не более высокой производительности. Если параметр выключен, то предпочтение отдаётся высокой производительности. В качестве примера приложения, для которого нужно включить этот параметр, можно привести вычислительный кластер Beowulf.
Максимальное количество брошенных (orphaned, не присоединённых ни к одному пользовательскому обработчику файлов) сокетов TCP, разрешённых в системе. Если это количество превышается, то брошенные соединения сбрасываются и выводится предупреждение. Данное ограничение существует только для предотвращения простейших атак в обслуживании (DoS). Понижать этот лимит не рекомендуется. Иногда для сети может потребоваться увеличить это количество, но заметим, что на каждое такое брошенное соединение расходуется до 64КБ невыгружаемой памяти. Значение по умолчанию равно значению параметра ядра NR_FILE. Значение по умолчанию может изменяться в зависимости от количества памяти в системе.
Максимальное количество запросов на соединение в очереди, которые пока не получили подтверждения от клиентов. Если это количество превышается, то ядро начнёт отбрасывать запросы. Значение по умолчанию (256) увеличивается до 1024, если в системе достаточно памяти (>= 128МБ) и уменьшается до 128, если памяти мало (<= 32МБ). При значениях больше 1024 рекомендуется также изменить значение TCP_SYNQ_HSIZE в include/net/tcp.h так, чтобы TCP_SYNQ_HSIZE*16<=tcp_max_syn_backlog, и пересобрать ядро.
Максимальное количество сокетов в состоянии TIME_WAIT, разрешённое в системе. Это ограничение существует только для предотвращения простейших атак DoS. По умолчанию равно NR_FILE*2 и изменяется в зависимости от количества памяти в системе. Если это значение превышено, то сокет закрывается и выводится предупреждение.
Если включён, то для TCP включается автоматическая настройка приёмного буфера; при этом размер буфера (не более чем tcp_rmem[2]) автоматически подгоняется под размер, используемый на пути прохождения трафика, в целях достижения максимальной пропускной способности.
Вектор из 3 целочисленных значений: [low, pressure, high]. Представляют собой границы, измеряемые в системных страницах памяти, используются в TCP для отслеживания использования памяти. По умолчанию рассчитываются во время загрузки ОС, зависят от количества памяти в системе (для этого в TCP может использоваться только нижняя память (low memory), которая в 32-битных системах ограничена 900-ми мегабайтами. В 64-битных системах этого ограничения нет).
TCP не регулирует распределение своей памяти, если число страниц, выделенных глобально, ниже этого значения.
Когда количество страниц, размещённых TCP, превышает это значение, то TCP изменяет свой метод использования памяти. Это состояние отменяется при падении количества размещённых страниц ниже значения low.
Глобальное (общее) максимальное количество страниц, которое может использовать TCP. Это значение переопределяет все другие ограничения, накладываемые ядром.
Этот параметр контролирует TCP Packetization-Layer Path MTU Discovery. В файле могут указываться следующие значения:
0
Выключен
1
Включать при обнаружении чёрной дыры (black hole) ICMP
2
Всегда включено, использовать начальное значение MSS из tcp_base_mss.
По умолчанию, TCP сохраняет различные метрики соединения в кэше маршрутов при закрытии соединения для того, чтобы соединения, устанавливаемые в ближайшем будущем, могли использовать этот набор начальных состояний. Обычно, это увеличивает общую производительность, но иногда может и уменьшить её. Если tcp_no_metrics_save включено, то TCP не кэширует метрики при закрытии соединений.
Максимальное количество попыток проверки другой стороны соединения перед закрытием с нашей стороны.
Максимальное количество пакетов, которое может быть переупорядочено в потоке TCP, при котором TCP ещё не считает что произошли потери и не переходит в состояние медленного запуска (slow start). Не рекомендуется менять это значение. Данная метрика обнаружения переупорядочивания пакетов предназначена для минимизации повторных передач, обусловленных переупорядочиванием пакетов в соединении.
При повторной передаче пробовать посылать полноразмерные пакеты.
Количество попыток повторной передачи пакетов по установленному соединению без привлечения других сетевых уровней. При превышении данного количества, сетевой уровень обновляет маршрут перед каждым повтором (если это возможно). В RFC установлено минимальное значение по умолчанию: 3.
Максимальное количество попыток повторной передачи пакетов TCP по установленному соединению до того, как оно будет считаться разорванным. По умолчанию равно 15, что соответствует времени примерно от 13 до 30 минут, в зависимости от значения таймера повторной передачи. В RFC 1122 установлена минимальная граница в 100 секунд, которая обычно считается слишком маленькой.
Включает поведение TCP, совместимое с RFC 1337. Если выключено, то: если в состоянии TIME_WAIT принимается RST, то сокет закрывается немедленно, не дожидаясь конца периода TIME_WAIT.
Вектор из 3 целочисленных значений: [min, default, max]. Эти параметры используются TCP для регулирования размера буфера приёма. TCP динамически корректирует размер буфера приёма от значений по умолчанию, указанных ниже, в диапазоне этих переменных и в зависимости от количества памяти в системе.
Минимальный размер буфера приёма, используемый каждым сокетом TCP. По умолчанию равен размеру системной страницы (в Linux 2.4 равно 4КБ и может уменьшаться до PAGE_SIZE байт в системах с малым количеством памяти). Это значение используется для того, чтобы размещение страниц памяти меньше этого значения в режиме давления (pressure) все равно выполнялось. Не ограничивает размер буфера приёма, объявленного для сокета с помощью SO_RCVBUF.
Размер буфера приёма по умолчанию для сокетов TCP. Это значение переопределяет начальный размер буфера по умолчанию, взятый из общей глобальной переменной net.core.rmem_default, определённой для всех протоколов. По умолчанию равен 87380 байт (в Linux 2.4 это значение может уменьшаться до 43689 в системах с малым количеством памяти). Если желательны большие размеры буфера приёма, то это значение должно быть увеличено (влияет на все сокеты). Для разрешения больших размеров окон TCP должно быть включено net.ipv4.tcp_window_scaling (по умолчанию).
Максимальный размер буфера приёма, используемый каждым сокетом TCP. Это значение не переопределяет значение глобальной переменной net.core.rmem_max. Не используется для ограничения размера буфера приёма, объявленного для сокета через SO_RCVBUF. Значение по умолчанию рассчитывается по следующей формуле


max(87380, min(4МБ, tcp_mem[1]*PAGE_SIZE/128))

(в Linux 2.4 значение по умолчанию равно 87380*2 байт, уменьшается до 87380 в системах с малым количеством памяти).

Включает выборочные подтверждения TCP (TCP Selective Acknowledgements), описанные в RFC 2018.
Если включено, то разрешается поведение согласно RFC 2861 и таймаут окна перегрузки после периода простоя. Период простоя определяется текущим значением RTO (таймаут повторной передачи). Если выключено, то после окна перегрузки не следует таймаут после периода простоя.
Если значение включено, то для поля указателя срочных данных TCP используется интерпретация RFC 1122. Согласно этому указатель срочности указывает на последний байт срочных данных. Если это значение выключено, то для указателя на срочные данные применяется интерпретация, совместимая с BSD: указатель срочности указывает на первый байт после срочных данных. Включение этого значения может привести к проблемам с взаимодействием сетей.
Максимальное количество посылаемых начальных пакетов SYN у активного соединения TCP. Значение должно быть меньше 255. Значение по умолчанию равно 5, что соответствует примерно 180 секундам.
Максимальное количество попыток повторной передачи сегмента SYN/ACK у пассивного соединения TCP. Значение должно быть меньше 255.
Включает TCP syncookies. Ядро должно быть собрано с параметром CONFIG_SYN_COOKIES. Это вызывает отправку syncookies при переполнении у сокета очереди syn backlog. Возможность syncookies создана для защиты сокета от атак переполнения SYN. Используйте её в самую последнюю очередь, а лучше вообще не используйте. Это является нарушением протокола TCP и конфликтует со многими другими областями TCP, например с расширениями TCP. Может привести к проблемам в работе клиентов и релеев. Не рекомендуется к использованию на высокозагруженных серверах в качестве «быстрой помощи» при перегрузках или некорректных настройках. В качестве рекомендуемой альтернативы смотрите tcp_max_syn_backlog, tcp_synack_retries и tcp_abort_on_overflow.
Включает метки времени TCP, описанные в RFC 1323.
Контролирует процент окна перегрузки, который может быть использован одиночным кадром TCP Segmentation Offload (TSO). Значение этого параметра — компромисс между временной нагрузкой (burstiness) и построением больших кадров TSO.
Включает быстрое повторное использование сокетов TIME_WAIT. Включать не рекомендуется, так как это может привести к проблемам с трансляцией сетевых адресов NAT.
Позволяет повторно использовать сокеты TIME_WAIT для новых соединений, если это безопасно с точки зрения протокола. Значение не должно изменяться без совета/запроса технических специалистов.
Включает алгоритм избежания перегрузок TCP Vegas. TCP Vegas действует на стороне отправителя; он ожидает начала перегрузки, оценивая пропускную способность. TCP Vegas подгоняет частоту отправки, изменяя окно перегрузки. При включённом TCP Vegas обеспечиваются меньшие потери пакетов, но он не так стремителен как TCP Reno.
Включает алгоритм управления перегрузками TCP Westwood+. TCP Westwood+ действует на стороне отправителя и является модификацией стека протокола TCP Reno, ориентированной на производительность управления перегрузками TCP. Он основан на оценке полосы пропускания от точки передачи до точки приёма при изменении окна перегрузки и порога медленного старта после возникновения перегрузки. Используя эту оценку TCP Westwood+ подстраивает порог медленного старта и окно перегрузки, принимая во внимание пропускную способность, полученную во время перегрузки. TCP Westwood+ значительно увеличивает плавность (fairness), по сравнению с TCP Reno, в проводных сетях и пропускную способность в беспроводных сетях.
Включает изменение размера окна TCP, описанное в RFC 1323. Эта возможность позволяет использовать большие (> 64КБ) окна для соединений TCP, но она должна также поддерживаться на другой стороне соединения. Обычно, 16-ти битовый размер поля длины окна в заголовке TCP ограничивает его размер до 64КБ. Если нужно обеспечить больший размер окна, то приложение должно увеличить размер своих буферов сокетов и включить возможность масштабирования окна. Если значение tcp_window_scaling выключено, то TCP не будет согласовывать использование масштабирования окон с другой стороной во время установки соединения.
Вектор из 3 целочисленных значений: [min, default, max]. Эти параметры используются TCP для управления размером буфера отправления. TCP динамически корректирует размер буфера отправления от значений по умолчанию, указанных ниже, в диапазоне этих переменных и в зависимости от количества доступной памяти.
Минимальный размер буфера отправления, используемый каждым сокетом TCP. По умолчанию равен размеру системной страницы (в Linux 2.4 значение равно 4КБ). Это значение используется для того, чтобы размещение страниц памяти меньше этого значения в режиме давления (pressure) все равно выполнялось. Не ограничивает размер буфера отправления, объявленного для сокета с помощью SO_SNDBUF.
Размер буфера отправления по умолчанию для сокетов TCP. Это значение переопределяет начальный размер буфера по умолчанию, взятый из общей глобальной переменной /proc/sys/net/core/wmem_default, определённой для всех протоколов. По умолчанию равно 16КБ. Если желательны большие размеры буферов отправления, то это значение должно быть увеличено (влияет на все сокеты). Для разрешения больших размеров окон TCP значение /proc/sys/net/ipv4/tcp_window_scaling должно быть ненулевым (по умолчанию).
Максимальный размер буфера отправления, используемый каждым сокетом TCP. Это значение не переопределяет значение переменной /proc/sys/net/core/wmem_max. Не используется для ограничения размера буфера отправления, объявленного для сокета через SO_SNDBUF. Значение по умолчанию рассчитывается по следующей формуле


max(65536, min(4МБ, tcp_mem[1]*PAGE_SIZE/128))

(в Linux 2.4 значение по умолчанию равно 128КБ, уменьшается до 64КБ в системах с малым количеством памяти).

Если включено, то предполагать, что неполучение параметра окна масштабирования означает, что удалённый TCP повреждён и считать размер окна как число со знаком. Если выключено, то предполагается, что удалённый TCP не повреждён, даже если мы не получаем от него параметр окна масштабирования.

Параметры сокетов

Для получения и задания параметров сокетов TCP используйте вызов getsockopt(2) и setsockopt(2), соответственно. Значение аргумента уровня параметров должно быть равно IPPROTO_TCP. Кроме того, сокетам TCP доступно большинство параметров сокета IPPROTO_IP. Дополнительная информация приведена в ip(7).

Если установлен, то не посылать частичные кадры. Все поставленные в очередь частичные кадры будут отосланы, когда этот параметр будет очищен. Это полезно для подготовки заголовков перед вызовом sendfile(2) или для оптимизации пропускной способности. В текущей реализации отводится максимум (ceiling) 200 миллисекунд, в течение которых вывод закупоривается (corked) из-за TCP_CORK. Если этот максимум достигнут, то данные в очереди передаются автоматически. Этот параметр можно совмещать с TCP_NODELAY только начиная с Linux 2.5.71. Данный параметр не должен использоваться, если требуется переносимость кода.
Позволяет слушающему просыпаться только при поступлении данных на сокет. Принимает целое значение (секунды), может ограничить максимальное количество попыток TCP закрытия этого соединения. Данный параметр не должен использоваться, если требуется переносимость кода.
Используется для сбора информации об этом сокете. Ядро возвращает структуру struct tcp_info, определённую в файле /usr/include/linux/tcp.h. Данный параметр не должен использоваться, если требуется переносимость кода.
Максимальное число проверок (keepalive probes) TCP, отправляемых перед сбросом соединения. Данный параметр не должен использоваться, если требуется переносимость кода.
Время (в секундах) простоя (idle) соединения, по прошествии которого TCP начнёт отправлять проверочные пакеты (keepalive probes), если для сокета включён параметр SO_KEEPALIVE. Данный параметр не должен использоваться, если требуется переносимость кода.
Время в секундах между отправками отдельных проверочных пакетов (keepalive probes). Данный параметр не должен использоваться, если требуется переносимость кода.
Время жизни брошенных (orphaned) сокетов в состоянии FIN_WAIT2. Этот параметр может использоваться для переопределения общесистемного параметра из файла /proc/sys/net/ipv4/tcp_fin_timeout данного сокета. Значение не должно противоречить параметру SO_LINGER уровня сокета socket(7). Данный параметр не должен использоваться, если требуется переносимость кода.
Максимальный размер сегмента для исходящих пакетов TCP. В Linux 2.2 и ранее, и в Linux 2.6.28 и новее, если этот параметр задан до установления соединения, то меняется также и значение MSS, сообщаемое другой стороне в начальном пакете. Значения, превышающие MTU интерфейса, игнорируются. TCP также будет определять минимальную и максимальную границу поверх этих значений.
Если включён, то отменяется выполнение алгоритма Nagle. Это означает, что сегменты всегда отсылаются при первой же возможности, даже если к отправке назначено небольшое количество данных. Если выключен, то данные буферизируются и будут отправлены только после набора достаточно большого количества данных, поэтому небольшие пакеты с данными не отправляются. Этот параметр переопределяется TCP_CORK; однако, установка данного параметра вызывает явную очистку ожидающих вывода данных, даже если установлен TCP_CORK.
Включает режим quickack при установке или выключает при сбросе. В этом режиме все уведомления отправляются немедленно, а не с некоторой задержкой в соответствии с обычной работой TCP. Этот флаг не постоянный, он только включает или выключает режим quickack. Последующие операции с протоколом TCP будут по своему включать/выключать этот режим в зависимости от своих внутренних протоколов, настроек и факторов. Данный параметр не должен использоваться, если требуется переносимость кода.
Устанавливает количество повторных передач SYN, которое должен послать TCP до отмены попытки установки соединения. Не должно превышать 255. Данный параметр не должен использоваться, если требуется переносимость кода.
Ограничивает размер предлагаемого окна указанным значением. Ядро считает минимальный размер как SOCK_MIN_RCVBUF/2. Данный параметр не должен использоваться, если требуется переносимость кода.

Программный интерфейс сокетов

TCP предоставляет ограниченную поддержку внеполосных данных в виде (одного байта) срочных данных. В Linux это означает, что если другая сторона посылает новые внеполосные данные, то старые срочные данные вставляются как обычные данные в поток (даже когда SO_OOBINLINE не установлен). В этом отличие от реализации стека в BSD.

По умолчанию в Linux используется совместимая с BSD интерпретация поля срочного указателя. Это нарушает RFC 1122, но требуется для правильного взаимодействия с другими стеками. Это можно изменить через /proc/sys/net/ipv4/tcp_stdurg.

Возможно получить внеполосные данные с помощью recv(2) и флага MSG_PEEK.

Начиная с версии 2.4, Linux поддерживает использование MSG_TRUNC в аргументе flags вызова recv(2)recvmsg(2)). Этот флаг принуждает отбросить принятые байты данных, а не передавать их обратно в буфер, предоставленный вызывающим. Начиная с Linux 2.4.4, MSG_PEEK также обладает этим свойством, если используется вместе с MSG_OOB для приёма внеполосных данных.

Системные вызовы (ioctl)

Следующие вызовы ioctl(2) возвращают информацию в аргументе value. Синтаксис:

int value;
error = ioctl(tcp_socket, ioctl_type, &value);

Значением ioctl_type может быть одно из:

Возвращает количество непрочитанных данных в очереди в приёмном буфере. Сокет не должен быть в состоянии LISTEN, иначе возвращается ошибка (EINVAL). Значение SIOCINQ определено в <linux/sockios.h>. В качестве альтернативы вы можете использовать синоним FIONREAD, определённый в <sys/ioctl.h>.
Возвращает истинное значение (т.е., value отличное от нуля), если входящие данные потока отмечены как срочные.

Если установлен параметр сокета SO_OOBINLINE и SIOCATMARK возвращает истинное значение, то при следующем чтении из сокета будут получены срочные данные. Если параметр сокета SO_OOBINLINE не установлен и SIOCATMARK возвращает истинное значение, то при следующем чтении из сокета будут получены байты, размещённые после срочных (для действительного чтения срочных данных требуется флаг recv(MSG_OOB)).

Заметим, что при чтении никогда не происходит чтения за меткой срочности. Если приложение проинформировано о наличии срочных данных с помощью select(2) (с аргументом exceptfds) или доставкой сигнала SIGURG, то оно может переместить метку дальше с помощью цикла, в котором постоянно проверяется SIOCATMARK, и выполнить чтение (запросив любое количество байт) пока SIOCATMARK возвращает ложь.

Возвращает количество неотправленных данных в очереди отправки сокета. Сокет не должен быть в состоянии прослушивания LISTEN, иначе возвратится ошибка (EINVAL). Значение SIOCOUTQ определено в <linux/sockios.h>. Или же вы можете использовать его аналог TIOCOUTQ, определённый в <sys/ioctl.h>.

Обработка ошибок

При возникновении сетевой ошибки TCP пытается отправить пакет повторно. Если в течение некоторого времени этого сделать не удаётся, то возвращается либо ETIMEDOUT, либо последняя ошибка, произошедшая в этом соединении.

Для некоторых приложений требуется более быстрое уведомление об ошибках. Это может быть выполнено на уровне IPPROTO_IP с помощью параметра сокета IP_RECVERR. Если этот параметр включён, то все входящие ошибки немедленно передаются программе пользователя. Используйте этот параметр осторожно: он приводит к тому, что TCP становится более чувствительным к сменам маршрутов и другим событиям, обычным для сети.

ОШИБКИ

Переданный в sin_family тип адреса сокета не равен AF_INET.
Другая сторона неожиданно закрыла сокет, или была произведена попытка чтения в отключённом сокете.
Другая сторона не подтвердила передачу данных через определённое время.

Все ошибки, определённые для ip(7) или общего слоя сокетов, также могут быть возвращены и для TCP.

ВЕРСИИ

В версии 2.4 были представлены: поддержка явного уведомления о перегрузке (Explicit Congestion Notification), нулевое копирование sendfile(2), поддержка переупорядочения и некоторые расширения SACK (DSACK). Поддержка упреждающего подтверждения (FACK), повторение цикла TIME_WAIT и параметры сокетов проверочных пакетов (keepalive) для каждого соединения появились в версии 2.3.

ДЕФЕКТЫ

Не все ошибки описаны.
Протокол IPv6 не описан.

СМОТРИТЕ ТАКЖЕ

accept(2), bind(2), connect(2), getsockopt(2), listen(2), recvmsg(2), sendfile(2), sendmsg(2), socket(2), ip(7), socket(7)

В RFC 793 описан TCP.
В RFC 1122 перечислены требования TCP и дано описание алгоритма Нагла (Nagle).
В RFC 1323 описаны метки времени TCP и параметры масштабирования окна.
В RFC 1337 описаны факторы риска TIME_WAIT.
В RFC 3168 описано уведомление о явной перегрузке (Explicit Congestion Notification).
В RFC 2581 описаны алгоритмы управления перегрузками TCP.
В RFC 2018 и RFC 2883 описан SACK и расширения к SACK.

2012-04-23 Linux